python还停留在初级水平,这东西还是要多练习。想对分好词的文本进行词频统计,参考了http://blog.csdn.net/zhanglei0107/article/details/8867833这篇教程,但是感觉自己不是琢磨的特别透彻,同时作为数据分析师小白,觉得用pandas进行分析感觉更好,毕竟自己编程功底还是比较低。
代码如下:
from pandas import DataFrame,Series
import pandas as pd
import urllib
#函数用于统计词频#
def word_count_dict(filename):
file=open(filename)
s=file.read()
u = s.decode('gbk')
dict={}
for line in u: